به گزارش مجله خبری نگار، بر اساس گزارش مطبوعاتی Sberbank، این پیشرفت در هنگام برخورد با پیچیدهترین اشکال محتوا بسیار جلوتر از مدلهای موجود است.
کد اصلی مدل در دسترس همه است و به دانشمندان دیگر اجازه میدهد تا از این ابزار در تحقیقات خود برای انجام آزمایشهای اضافی و آزمایش مدیریت مدل با زبانها و مجموعه دادههای دیگر استفاده کنند و توانایی آن را برای انجام بسیاری از وظایف و توانایی آن برای اعمال در شرایط دنیای واقعی افزایش دهند. به عنوان مثال، این مدل را میتوان بر روی مجموعه دادههای احساسی به زبان روسی آموزش داد و سپس در دستیارهای صوتی و مراکز تماس اعمال کرد.
الگوریتم جدید که CA-SER نامیده میشود، توسط محققان آزمایشگاه هوش مصنوعی Sberbank و دانشگاه هستهای مسکو توسعه یافته است.
سیستم جدید مبتنی بر مدل خودآموزی (SSL) است و چندین روش را که در حال حاضر در تجزیه و تحلیل گفتار گفتاری و تشخیص احساسات استفاده میشود، ترکیب میکند.
این سیستم ابتدا ویژگیهای مهم گفتار را تشخیص میدهد، سپس دادههایی را در مورد لحن صدا، از جمله حجم و شدت آن، با در نظر گرفتن اینکه فرد کدام قسمت از طیف صوتی را میتواند بهتر درک کند، اضافه میکند. این دو نوع اطلاعات با مکانیسم خاصی ترکیب میشوند و اجازه میدهند ویژگیهای کلی گفتار با جزئیات ظریف آن ترکیب شوند و به شناسایی دقیقتر احساسات گوینده کمک میکنند.
دانشمندان روسی کار این سیستم و نه سیستم مشابه دیگر را با استفاده از مدلهای پایگاه داده IEMOCAP آزمایش کردند که شامل طیف گستردهای از ضبطهای صوتی، فیلم ها، متون و ضبطهای چندرسانهای مرتبط با تعداد زیادی از احساسات انسانی است.
این آزمایشها نشان داد که مدل روسی به طور قابل توجهی از سایر سیستمهای هوش مصنوعی بهتر عمل میکند و با شبکه پیچیدهتر HuBERT از فیس بوک که در روسیه ممنوع است و زیرمجموعه متا قابل مقایسه شده است و دانشمندان امیدوارند که این پیشرفت به بهبود عملکرد دستیارهای صوتی و سایر سیستمهای دیجیتالی که نیاز به تشخیص صحیح احساسات کاربران دارند، کمک کند.